专访博德研究所计算科学家邵斌:用DNA语言模型破译和设计生命丨未来百科022期
关于未来百科:未来百科(Next Biotech)是嘉程资本携手生物世界联合发起的访谈100位中美优秀Biotech科学家的项目,旨在真实访谈开启未来的100位Biotech领域科学家,探讨生物科技/生命科学领域的全球最新技术和商业趋势,展现华人生物科技科学家在该领域的贡献与成就,剖析创新的生物科技公司的最佳商业实践,共同推进生物科技/生命科学行业在中国的茁壮成长。第022期未来百科的访谈嘉宾,是MIT&哈佛Broad研究所邵斌博士。
近日,MIT&哈佛Broad研究所邵斌博士在预印本平台 bioRxiv 发表了一篇题为:A long-context language model for deciphering and generating bacteriophage genomes 的论文【1】。
受大语言模型(LLM)成功的启发,邵斌博士开发了一种用于基因组的长上下文生成式模型——MegaDNA。这一多尺度Transformer模型在未注释的噬菌体基因组上以单碱基精度进行预训练。该研究展示了MegaDNA模型的基本能力,包括对必需基因的预测、研究遗传变异的影响、调控元件的活性预测和未注释序列的分类。此外,MegaDNA模型能够从头生成长达96K碱基对的噬菌体基因组序列,其中包含功能性调控元件和具有噬菌体相关功能的新蛋白质。
邵斌:我在MIT&哈佛Broad研究所做全职科研工作,我的官方职位叫Computational Method Developer,这是专属于我的一个职位,大概相当于计算科学家,做一些算法开发工作。
邵斌:第一个遇到困难是没钱,因为波士顿的生活成本比较高,尤其是MIT所在的剑桥市。尤其是在前几年,而我和我夫人都在学术界,钱成了一个非常大的问题。最近两年有了改善,因为Broad研究所给了我一个固定研究职位,这缓解了我的生活压力,也让我有余力做一些自己感兴趣的研究,包括我发在bioRxiv的这项工作。
未来百科:要做好科研需要具备哪些能力?
邵斌:我的导师欧阳颀院士在很久之前有一个采访中提到一点,他大意是说做科研如果能让你觉得有趣,觉得好玩,这是一个很重要的品质,我非常认同。能够在做科研的时候享受智力上的探索乐趣,这其实是很好的动力。
未来百科:你发表的这篇基因组语言模型的论文,主要做了哪些工作?
邵斌:这项工作是我和一个长期合作者闫嘉伟博士一起做的。这项工作其实就是回答一个技术问题——能不能把GPT模型应用在DNA序列上。众所周知,ChatGPT在对人类自然语言的处理上非常成功,可以说是前所未有的。而DNA的序列跟自然语言很像,它们都是某种语言,只不过人类的语言由几千乃至几万个词组成,而DNA是由ATCG这4个碱基组成,它们都是序列数据。所以能不能把这种语言模型用在对DNA的处理上,我觉得是一个很重要的问题,如果我们能用类似于ChatGPT的方法去理解DNA,能够实现对DNA的交互设计,实现对DNA的知识挖掘,我觉得是非常有潜力的。因为DNA承载着所有的我们已知的遗传信息。
邵斌:目前它的潜在应用场景都还跟噬菌体相关,例如用来对噬菌体进行工程化改造,如果能改造针对特定细菌的噬菌体,可用来开发噬菌体疗法,治疗耐药菌感染。它还将可能在农业生产上有应用潜力,帮助工程化改造噬菌体来防治病虫害。此外,还可以帮助解决生物发酵工程中经常面临的杂菌污染问题。当前的基因治疗主要依赖病毒载体,这个模型还具有帮助改进病毒递送载体的潜力。
邵斌:传统的语言模型有一个很重要问题,就是它的文本长度(context length)非常受限。例如,在使用ChatGPT或其他大语言模型时,都会遇到文本长度的限制,也就是输入和输出文本长度不能超过一个特定限制。而提高文本长度,会极大地增加模型的对于GPU显存的消耗。直到去年出现的几项工作给了我们如何提高语言模型文本长度限制的新思路,其中一项重要工作是Meta公司的余莉莉博士做出的,她是我的本科同学,也是长文本语言模型的顶尖专家,她的工作让我意识到全基因组规模的语言模型是可行的,当时我是在Twitter上关注到她的这项工作的。
未来百科:相比前人的成果,你的这个模型是实现了更长的文本长度,从而可用于破译和从头生成噬菌体基因组?
邵斌:不限制资源可能会更好,但如果用2块、4块GPU会更好吗?我不觉得。模型还是这么大,训练数据还是这么大,其实没有什么特别大区别。如果想有一个质的飞跃,可能是更多的训练数据,更大的模型,需要更多的A100,这是正常的套路。但如果只单纯的增加几块,我觉得不会有多少帮助。
未来百科:在这个基因组模型的训练中,输入的数据是什么?
邵斌:输入的是噬菌体的基因组数据,选择公开数据集中高质量的噬菌体基因组数据,也就是那些完整的噬菌体基因组,至少是完整度>95%的噬菌体基因组数据。
邵斌:主要从两个方面来评估,首先是评估它的生成性,这就像评估GPT模型能不能生成一些有意义的语义片段,尤其是能不能生成长文本。所以我们用这个模型来生成一些基因组序列,看这些序列是不是有意义的。分析显示,模型生成的序列包括基因编码序列,它是从ATG(起始密码)开始,到GGA或TAA(终止密码)结束,而在这些编码序列的前面还有核糖体结合位点(RBS)序列,总体来说,生成的这些基因组序列是有意义的。用生物信息学工具来分析生成序列,发现它们能够被生物信息学工具识别为噬菌体,说明其中包含足够的噬菌体标志基因。甚至还能用一些工具预测这些生成序列的能够感染哪一类细菌。从已有的生物信息学工具来看,我们生成的序列看起来就像是一个噬菌体。
未来百科:在模型的训练与搭建方面,你得下一步计划是什么,会从现在的噬菌体拓展到其他物种吗?
邵斌:对于真核生物而言,基因组中大约99%是非编码序列,其中包含了大量的“垃圾”序列,用语言模型来生成真核基因组还有难度。而噬菌体和细菌的基因组非常紧凑,基本都是编码序列和调控序列,无意义序列很少。所以我们下一步可能会先把语言模型拓展到细菌基因组。不过,前不久Arc研究所的Brian Hie和Patrick Hsu开发了一个可生成细菌基因组的Evo模型【2】。
邵斌:Evo模型跟我们的模型有一些区别,Evo模型参数量很大,它是一个70亿参数模型,它训练数据集是原核生物基因组,包括噬菌体基因组。它有两个我们没有做的应用,一个是生成CRISPR-Cas系统,一个是生成转座子系统,如果进一步在实验上验证和优化,可以为基因编辑带来新工具。Evo模型是一个不错的长读长模型,读长是131kb,也就是10万碱基对水平,但原核生物基因组一般是百万碱基对水平,例如大肠杆菌MG1655菌株是460万碱基对,相差了一个数量级,读长不足以整个细菌基因组,所以可能会带来一些问题。Arc研究所是西海岸新成立的一个研究所,预算比较充足,Evo模型参数比我们大50倍,它用了100块A100 GPU。此外,Evo模型的技术路线和我们完全不一样。
未来百科:Evo模型有什么值得借鉴的地方?
邵斌:Evo模型在数据训练、模型设计上都做得很好。从生物学角度来讲,优点在于尝试生成了CRISPR-Cas系统和转座子系统这两个极具应用前景的工具。
邵斌:生命科学领域的模型有几个层次,对于DNA序列的生成模型,目前就只有我们的MegaDNA模型,以及Evo模型。对于广义的DNA语言模型,就已经非常多了,但它们不是生成模型,而是做一些帮助理解基因组的工作。实际上,生命科学领域的AI模型已经很“泛滥”,尤其是DNA非生成式语言模型,以及单细胞测序领域的AI模型。
邵斌:在我看来,我比较关注生命科学领域的基础模型(foundation model)。就像ChatGPT这样能够处理很多事情的模型。在生命科学领域,已经提出了一些所谓的基础模型,但我个人认为这些所谓的基础模型都还没有达到自然语言领域基础模型的水平,主要由于它们没有打通不同的数据模式,都还局限在某个数据模态内,例如现在还没有一个基础模型能够同时帮助我们处理 DNA序列、单细胞测序,以及疾病的影像学问题。我相信未来会有基础模型能够学会所有生物学知识,但目前大家还不知道如何实现这一点,因为它跟自然语言差距还是很大。
未来百科:如果MegaDNA模型有“幻觉”怎么办?怎么去纠正这种错误呢?
邵斌:这是个好问题,对大模型领域而言,“幻觉”是很重要的,这会使得它构思一些本不存在的事物。从生物设计角度来讲,我们有时希望模型要有一些幻觉,但要控制在一定程度内。比如,去生成一些生物序列,在自然界中不存在也无所谓,只要它有功能就可以。但不要让“幻想”太过分,控制在一定程度内,让它生成一些不存在的,但有生物学意义的蛋白,这还是很有趣的。在学术领域,这对于设计蛋白和基因组也有启发作用。
未来百科:AI可以设计、生成一些人类难以想象的实验方案,但最终是否需要和实验融合在一起?
邵斌:实验非常重要,我们的工作可能仅仅是一个开始,我希望能看到后来者做一些设计上的工作,把实验流程跟模型迭代紧密结合。这个想法不限于DNA模型,实际上任何一个AI模型,如果能和实验紧密地结合在一起,我觉得都会产生更好的效果。
邵斌:在我比较熟悉的领域。首先是噬菌体,如果按照底层设计,蛋白质设计可能“呼之欲出”,因为做蛋白质设计比较好的实验室和公司已经不少。我认为,看一个领域做得好不好、是不是“呼之欲出”,一个重要的标准是看这个领域是公司做得好,还是高校做得好。如果是高校做得好,说明这个领域还处在前期孵化阶段;但如果该领域的公司的力量超过了高校,而且趋势在逐渐增长,这个领域就可能“呼之欲出”。例如,2019年之前,蛋白质设计领域David Baker实验室做得最好,基本上没有公司去做。但是最近,已经有几个公司做得越来越好,并且能够在Nature等顶尖期刊发表论文,说明有大量顶尖研究者进入这个领域并创立公司,还得到了大量风险投资的支持。因此,我认为蛋白质设计可能已经“呼之欲出”了。
邵斌:原则上,对DNA的设计是包含所有设计的。理想的情况是,我们能把所有DNA承载的东西(包括RNA、蛋白质等)都设计好,但暂时我们还没有达到这个程度。David Baker实验室深耕蛋白质设计领域很多年,在蛋白质模型领域已经做得很好了。刚才提到,语言模型的读长限制是很重要的,但蛋白质通常不是很长,是一个非常适合语言模型和传统生物学工作的一个领域,所以语言模型很早用在蛋白质上。这个领域工作特别多,表现也不错。我希望DNA模型走到把所有都设计好、把蛋白质的调控序列都设计好的程度。这样一来,实际过程中会省掉很多技术问题,比如设计好蛋白之后怎么进行蛋白质的递送和表达,或者如何解决实际的生产问题。我希望我们可以往这个方向发展和进步,让DNA模型越来越好,去匹配现在的蛋白质设计模型。
另外,能不能通过已有的以DNA为基础的语言模型,去帮助更好地设计蛋白质,值得进一步探索。还有一些很有趣的问题,比如,DNA模型跑出来的很多蛋白质跟自然界的蛋白质非常不一致,在DNA模型还没有达到很好水平的前提下,这些能不能帮助设计一些功能蛋白质?还有,像Evo模型展示的,DNA模型也可以设计CRISPR-Cas系统、转座子系统等蛋白质+核酸的系统。现阶段,在蛋白质设计上,目前蛋白质模型做得比DNA模型更好,但在应用场景、未来发展以及在对已有工具的补充上,DNA模型应该有很大的潜力。当然除了生成式任务之外,DNA语言模型的优势还包括对已有基因组的注释,挖掘和对调控元件的定量预测。我们的文章中对这些问题也有所探讨。
2. https://www.biorxiv.org/content/10.1101/2024.02.27.582234v2
《生物世界》是中文媒体中顶尖的生物科技自媒体矩阵,在微信、今日头条、网易新闻、澎湃新闻等全渠道发布,全网有近100万专业读者关注,该自媒体矩阵备受中文华语市场最顶级的科学家、专家、产业界高层等关注,也由此形成了一个高质量的生物科技前沿趋势、学术成就、产业动态等方面的讨论社区。《生物世界》创始人王聪在生物科技领域从业10年,熟悉全产业链结构,通过建立自媒体矩阵的方式,旨在为推动中国的Biotech领域发展做出贡献。